Giới thiệu về lập trình Triton: Chuyển từ các luồng sang các phiên bản chương trình

Trong Triton, đơn vị cơ bản của thao tác chuyển từ luồng scalar CUDA sang Phiên bản chương trình. Đây là một trừu tượng hóa của một khối luồng GPU, nơi một phiên bản duy nhất xử lý đồng thời một khối dữ liệu được vector hóa.

1. Đặc điểm nhận dạng của Phiên bản chương trình

Mỗi đơn vị thực thi lấy thông tin nhận dạng của mình thông qua pid = tl.program_id(trục=0). Hãy tưởng tượng một Xe nâng kho (phiên bản chương trình) nhấc lên một Thùng hàng (khối) gồm 128 thùng hàng, so với một công nhân đơn lẻ (luồng CUDA) nhấc từng thùng một.

2. Triton so với Tensor của PyTorch

Hiểu rõ khoảng cách ngữ nghĩa là điều then chốt cho việc quản lý bộ nhớ:

Tensor PyTorch: Đối tượng Python ở phía máy chủ bao bọc lưu trữ VRAM, bước nhảy và thông tin mô tả.
Tensor Triton: Một đối tượng cấp biên dịch biểu diễn các giá trị hoặc con trỏ nằm trong bộ nhớ đệm hay SRAM.

Góc nhìn PyTorch
Đối tượng Python trỏ đến bộ nhớ toàn cục liên tục.

Góc nhìn Triton
Một khối dữ liệu 2D/1D bên trong các thanh ghi biên dịch.

3. Bản chất SPMD

Triton tuân theo mô hình Chương trình Đơn, Dữ liệu Nhiều (SPMD) dòng chảy. Mỗi phiên bản chương trình đều thực thi giống hệt nhau mã nguồn. Sự phân kỳ chỉ xảy ra khi logic sử dụng pid để tính toán các offset bộ nhớ cụ thể.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary identifier for a Triton execution unit?

threadIdx.x

tl.program_id(axis=0)

tl.block_idx()

torch.get_id()

QUESTION 2

True or False: A Triton tensor is a Python object that stores metadata like strides on the host CPU.

True

False

QUESTION 3

What is the result of 'forgetting that all program instances execute the same kernel body'?

The compiler will automatically distribute tasks.

Race conditions or overwriting memory if pid-based logic is missing.

The kernel will fail to compile due to a syntax error.

Execution time will double.

QUESTION 4

In the forklift analogy, what does the 'Aisle Number' represent?

The BLOCK_SIZE

The program_id (pid)

The GPU Driver version

The Pointer address

QUESTION 5

Why is the Triton model considered 'Vectorized' compared to CUDA?

It uses Python lists.

One Program Instance handles a block of elements, not just one scalar element.

It only works with 2D matrices.

It runs on the CPU's SIMD units.